Document Indexing with a Concept Hierarchy Índice de Documentos con una Jerarquía de Conceptos

نویسندگان

  • Alexander Gelbukh
  • Grigori Sidorov
  • Adolfo Guzmán-Arenas
چکیده

Given a large hierarchical concept dictionary (thesaurus, or ontology), the task of selection of the concepts that describe the contents of a given document is considered. A statistical method of document indexing driven by such a dictionary is proposed. The method is insensible to inaccuracies in the dictionary, which allow for semi-automatic translation of the hierarchy into different languages. The problem of handling non-terminal and especially top-level nodes in the hierarchy is discussed. Common sense-complaint methods of automatically assigning the weights to the nodes and links in the hierarchy are presented. The application of the method in the Classifier system is discussed.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Proyecto de indexado automático para documentos en el campo de la física de altas energías

Este proyecto consiste en el desarrollo de un sistema automático de indexado por asignación. El indexado por asignación consiste en la selección de palabras clave dentro de un léxico controlado (en nuestro caso un tesauro) que describan y resuman los conceptos más importantes tratados en un texto dado. El sistema propone palabras clave según el tesauro del laboratorio alemán DESY (Deutsche Elek...

متن کامل

Clustering Iterativo de Textos Cortos con Representaciones basadas en Conceptos

Resumen La tendencia actual a trabajar con documentos cortos (blogs, mensajes de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento automáticas de documentos con estas caracteŕısticas. En este contexto, el “clustering” (agrupamiento) de textos cortos es un área muy importante de investigación, que puede jugar un rol fundamental en organizar estos grandes volúmen...

متن کامل

Sistema de almacenamiento y gestión de documentos para el desarrollo de bibliotecas digitales

El sistema propuesto se ha diseñado para el almacenamiento y gestión de documentos de una biblioteca. La arquitectura del sistema es altamente genérica, con el objetivo de no restringir la clase de documentos gestionables por él. Con ello creamos un sistema base o primario que es independiente del tipo de documento, siendo capaz de almacenar documentos sin atenerse a su formato. El sistema es a...

متن کامل

Introduciendo conceptos de metrología en el diseño de medidas de software

Resumen. Una revisión del vocabulario internacional de términos de metrología fue llevada a cabo con el fin de identificar los conceptos que debieran ser considerados en el diseño de las medidas de tamaño de software. Luego, un análisis es llevado a cabo sobre el diseño de un procedimiento de medición de tamaño funcional, llamado RmFFP. Los resultados muestran que RmFFP considera la mayoría de ...

متن کامل

Aplicación de Técnicas de Aprendizaje Cooperativo en la Enseñanza del Desarrollo de Software

El desarrollo de software requiere de algunas destrezas que se desarrollan con la práctica y el trabajo en equipo. Es importante contar con una buena base teórica pero no suficiente, es por esta razón que las técnicas del aprendizaje cooperativo juegan un papel muy importante como herramientas que permiten a través de sus ejercicios aprender nuevos conceptos, afianzar los conceptos ya aprendido...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006